(网经社讯)4月15日,百度文心大模型团队正式开源文生图模型ERNIE-Image。该模型主打复杂指令跟随、高密度文字渲染和多语言生成,参数量仅8B,可在24GB显存的消费级显卡上本地运行。官方称其在多项国际基准测试中文字渲染能力达到开源SOTA,与NanoBanana等商业闭源模型同属第一梯队。
网经社数字生活台(DL.100EC.CN)获悉,文字渲染长期是文生图模型的痛点。Midjourney V8虽相比V7大幅改善了文本生成稳定性,但仍需用户用引号标注内容,复杂排版下容易出错。ERNIE-Image的差异化在于,它不仅能生成清晰的单行文字,还能处理海报排版、学术图表、漫画分镜等需要精确布局和多语言混合的场景。模型针对中、英、日、韩等语言做了字形和笔画的专门优化,在多语言文字同时出现时保持可读性。
技术架构上,ERNIE-Image采用单流Diffusion Transformer,并附带轻量级Prompt Enhancer,能将简短用户输入扩展为更结构化的描述。模型权重和推理代码已在Hugging Face开源,采用Apache 2.0协议,同时支持ComfyUI工作流,并与Unsloth联合推出GGUF量化方案,降低了开发者部署门槛。
在开源文生图赛道,阿里Qwen Image 2.0同样强调中文汉字渲染和长文本输入能力;字节Seedream 5.0 Preview侧重检索增强生图与精细调控;谷歌Nano Banana 2也重点宣传了文字繁重设计场景。ERNIE-Image的独特之处在于完全开源权重,允许本地部署和二次开发,而非受限于云API调用,为对数据隐私和部署灵活性有要求的用户提供了新的选择。
当前文生图领域正从“生成好看图片”转向“高效解决实际问题”。海报设计、多语言广告本地化、信息图制作等场景对文字渲染和指令控制的精度要求越来越高。ERNIE-Image选择在此节点开源,既是百度在多模态大模型战略上的进一步落地,也是其对开源社区的积极试探。


































.png)


